未知

垃圾帖和低质内容

用户生成内容网站会因优秀的内容而繁荣兴旺。对于我们访谈的很多用户生成内容公司，比如Community Connect和reddit，虚假内容是一个非常实际的问题，需要持续分析和大量的工程投入。除了算法和机器规则之外，谷歌和Facebook等公司雇用全职人员来过滤那些违法内容和可能引起不适的内容，这是一项繁重的工作。10 杰里米·埃德伯格估计reddit的开发中有50%的时间花在阻击垃圾帖和反投票作弊中，尽管在最初的18个月，用户投票足以阻止所有垃圾帖，并且当时并没有一个反垃圾保护机制。

10 http://www.buzzfeed.com/reyhan/tech-confessional-the-googler-who-looks-at-the-wo

垃圾信息发送者经常创建一次性账户，这是很容易侦测的。虽然劫持的账户更加难以检测，但是大部分用户生成内容网站允许用户标记出垃圾内容，这使得审查变得相对容易一些。即使自我管理的社区看起来可以获得成功，依赖用户也并不是找出劣质内容的好手段。reddit上许多帖子被标记为垃圾帖，这其实是垃圾发送者故意为之，以期通过标记所有人来提升他们自己的内容。杰里米说：“在reddit，我们不得不构建一个系统，来分析每个用户针对垃圾帖的报告的有效性（多少报告最后查实确是垃圾帖）。”

在reddit，自动的过滤器与人工的仲裁者配合能够找出大部分垃圾帖。2011年，其数量大约占用户总体提交内容的一半。“这50%的内容来自远远少于50%的用户。”杰里米说，“所有的反欺骗方法基本上都是这样开发出来的：先找到一个成功骗过系统的垃圾发送者，分析他为什么成功了，接着寻找语料库里类似的其他样例，然后建立一个模型来处理这种欺骗者。”

最后，垃圾帖也能反映网站的广告收入模型。“我们认为垃圾帖发送者试图通过欺骗让人看到他们的链接。为什么不让他们就此付费，然后让他们的链接明显看起来是付过费的？”杰里米回忆说，“如果你仔细看现在的赞助商链接，会看到它们的样式和制作与2008年左右谷歌的高亮赞助链接几乎一样。”

底线在哪里

做好心理准备。随着网站的人气上涨，你需要为阻击垃圾帖花费大量的时间和金钱。要尽早开始判断内容的好坏，以及哪些用户对于标示垃圾内容很在行——因为有效算法的关键是有大量数据可供训练。内容质量是用户满意度的一个主要指标，所以要密切注意内容质量的下降，在它还没有影响你的社区氛围时就要进行处理。